跨领域分类学习方法及应用研究

跨领域分类学习方法及应用研究

作者:师大云端图书馆 时间:2015-09-08 分类:毕业论文 喜欢:2833
师大云端图书馆

【摘要】随着信息革命的来临,信息技术高速发展,机器学习作为一种知识学习手段被越来越多的应用在社会各个领域。如何从海量纷杂的信息中提取有效信息在数据挖掘、数据校正、数据预测等领域上有着重要的意义。但随着研究与应用的深入,传统的机器学习出现了各种局限性,影响到了系统识别率和识别速度,其中比较重要的一条即传统机器学习在面对跨领域和多领域学习时自适应性较差,这是因为传统的机器学习方法大都假设训练数据与测试数据分布相同,而现实世界这种假设往往是不成立的。由此带来了一系列问题如:训练数据和模型易过期、分类器的偏向性、分类器的抗噪性差、分类模型泛化能力差、标记样本成本高等问题,而这些问题的存在降低了机器学习的分类精度及效率。跨领域学习不严格要求训练数据和测试数据满足相同分布,跨领域学习在不同数据分布条件下进行知识传递和学习,利用任务之间的联系和过去的学习经验加速对于新任务的学习,最大程度的减小了不同领域数据分布差异带来的影响。目前跨领域学习受到了很多关注,也取得了一系列成果。但对当前跨领域学习成果仔细观察和研究后发现跨领域学习还存在许多急待解决和完善的问题这其中包括:如何解决因源领域与目标领域的数据分布差异性而带来的识别率降低,如何提高跨领域学习的自适应性,如何解决数据的干扰和数据的隐私保护,如何在多源数据和多任务数据结构下完成跨领域学习,如何解决域间分布的不平衡性,如何完成大样本多领域的快速学习等问题。针对以上问题本课题进行了如下相关研究:1、从提高跨领域学习的自适应性出发,提出了一种“基于最小包含球的领域自适应算法”(MEB-DA),以及对应的大样本快速算法“基于中心约束型最小包含球的领域自适应算法”(CCMEB-DA)。该算法将不同领域的球心位置、球半径信息作为约束条件,在此条件下求出目标域的最小包含球球心并与源域球心位置比较以判定不同领域之间的相似度。通过计算各数据组的最小包含球球心可对不同领域数据进行整体校正、入侵检测和相似度识别,算法有着较好的运行效率和自适应性。对不同领域的样本组能够进行整体快速识别。作为验证我们将其应用在了WIFI数据的室内定位与人脸识别检测上,并取得了较好的效果。2、从最大化减小领域数据分布差异性出发提出了一种“基于概率估计的最小包含球领域迁移算法”(MEBTL),和满足大样本运算的“中心约束迁移算法”(CCMEBTL)。新算法在求解目标域球心位置时,尽可能多的利用到源域数据完成知识传递,通过计算出源领域、目标领域相对于最小包含球球心的概率估计比,并以该概率估计比作为不同领域分布距离的度量值来衡量源领域与目标领域数据分布间的差异度,判断出源领域与目标领域数据分布的差异度,从而发现不同领域之间的内部联系,在不同领域之间完成大样本的迁移学习。3、从大样本数据、抗干扰性和数据的隐私保护出发将SVM理论、CCMEB理论(改进了CVM的最小包含球算法)与概率密度差理论相结合提出了一种全新的基于数据分类的领域自适应算法(CCMEB-SVMDA)。支持向量机(SVM)主要思想是针对两类分类问题,在高维空间寻找一个最优分类超平面,以保证最小的分类错误率。CCMEB理论是一种改进了CVM的最小包含球算法,在大样本数据集处理上有着较快的速度。CCMEB-SVMDA算法将满足不同数据分布的近似领域进行整体比较,通过计算领域间的相似度快速判断领域数据的分类属性。该算法有较强的抗扰动性,通过提高源领域与目标领域的相似度能消除有害样本对分类器的误导提高分类精度。4、为了克服传统单源域跨领域分类算法所存在的指导偏向性,从多源域出发结合“逻辑回归模型”与“一致性方法”提出了一种“多源跨领域分类算法”(MSCC),该算法通过构建多个源域分类器综合指导目标域的数据分类。在MSCC的基础上结合最新的对偶坐标下降法CDdual,提出了一种大样本快速算法MSCC-CDdual,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性。5、为了克服跨领域分类学习中的域间不平衡性,从多任务学习角度出发提出了一种“多任务域分类算法”(MTC-LR),算法依据“LR模型”与“后验概率最大法则”构建多任务训练域分类器并综合指导各个任务域的数据分类,以此解决源领域数据的分布不平衡性以及稀有任务域过学习和欠学习等相关问题。为了充分高效利用大样本的任务域数据,满足大样本的快速运算,在结合CDdual算法的基础上,提出了MTC-LR的快速算法(MTC-LR-CDdual)。该算法有着较高的识别率、快速的识别速度、抗干扰性和抗不平衡性和鲁棒性。
【作者】顾鑫;
【导师】王士同;
【作者基本信息】江南大学,轻工信息技术与工程,2014,博士
【关键词】跨领域;迁移学习;分类;最小包含球;逻辑回归;多任务;支持向量机;

【参考文献】
[1]王通武.山西高校科技创新能力的现状、问题及发展对策分析[D].山西大学,科技哲学,2004,硕士.
[2]王海.多维数据集聚类算法研究与实现[D].沈阳工业大学,计算机应用技术,2004,硕士.
[3]孙波.基于嵌入式集散电气系统的啤酒生产过程控制与应用研究[D].沈阳工业大学,2008.
[4]乔姝.北京金融街集聚发展动力研究[D].首都经济贸易大学,企业管理,2013,硕士.
[5]代建峰.不同中药方剂治疗血管性痴呆大鼠的分子学比较研究[D].浙江中医学院,中医内科学,2003,硕士.
[6]张图雅.安代的逻辑思维研究[D].内蒙古师范大学,逻辑学,2012,硕士.
[7]丁泓宇.英国与苏伊士运河战争研究[D].郑州大学,世界史,2013,硕士.
[8]刘子铭.某型舰炮单元式储运机构设计及相似性能研究[D].哈尔滨工程大学,机械设计及理论,2012,硕士.
[9]李屏.FHIT基因在鼻咽癌中的表达及其下调机制的研究[D].广西医科大学,临床检验诊断学,2013,硕士.
[10]王凯.地面天气图等温线分析与斜压带个例研究[D].南京大学,气象学,2013,硕士.
[11]艾军.基于正面碰撞副驾驶员防护的乘员约束系统优化研究[D].湖南大学,车辆工程,2011,硕士.
[12]惠恩健.佛手片、砂仁等中医理气药的有效成分溶出规律研究[D].浙江中医药大学,中医临床基础,2013,硕士.
[13]赵国惠.《黄帝内经》中以脾胃为枢的藏府模型的数术解构[D].成都中医药大学,中医基础理论,2012,硕士.
[14]肖永.集群化软件架构的研究与设计[D].西北大学,计算机应用技术,2013,硕士.
[15]张媛,张铃,张燕平.粗糙集算法及其应用[J].微机发展,2005,04:17-18.
[16]徐亚男.石墨烯边界的动力学行为研究[D].吉林大学,2011.
[17]姜子成.“健脑强智”长春市净月区林场社区老年痴呆预防项目书[D].长春工业大学,社会工作,2013,硕士.
[18]牛毓荃.石油物探学会新技术发展讨论会记实[J].石油地球物理勘探,1989,06:734-735.
[19]杨涛涛.城市建筑综合体主导功能组织模式初探[D].西安建筑科技大学,建筑设计及其理论,2013,硕士.
[20]黄文良,刘勇,钟志强,沈仲明.基于复杂网络的垃圾短信过滤算法[J].自动化学报,2009,07:990-996.
[21]李唯僖.角色成就经典 风格决定演绎[D].云南艺术学院,音乐表演,2014,硕士.
[22]潘宁.培训管理信息系统设计与实现[D].吉林大学,软件工程,2014,硕士.
[23]安宝龙.俄语名言警句及其在言语交际中的功能[D].首都师范大学,俄语语言文学,2004,硕士.
[24]上官涛.铁路物资企业向第三方物流企业转变的对策与模式[D].武汉大学,2003.
[25]张兴文.齐40块蒸汽驱综合调控技术研究与应用[D].东北石油大学,石油与天然气工程(专业学位),2013,硕士.
[26]沈寿康.透骨消痛胶囊干预骨性关节炎软骨退变的机制研究[D].福建中医药大学,中西医结合临床,2014,硕士.
[27]邢硕.哈齐高速铁路客运专线CFG桩—筏复合地基研究[D].北方工业大学,岩土工程,2014,硕士.
[28]田永超,杨杰,姚霞,朱艳,曹卫星.利用红边面积形状参数估测水稻叶层氮浓度[J].植物生态学报,2009,04:791-801.
[29]张平远.饲料中添加维C可提高鱼免疫力[J].湖南饲料.2005(01)
[30]孙琦.基于铁路货物运输作业过程的点线能力协调问题研究[D].北京交通大学,2010.
[31]毕飞超.最优路径规划法在土地执法监察系统中的应用[D].中国矿业大学,大地测量学与测量工程,2014,硕士.
[32]唐雪莲.广西全州方言词汇研究[D].大连理工大学,语言学及应用语言学,2013,硕士.
[33]叶青,魏培莲,尤玉如,刘士旺,杨农建.HPLC法直接测定啤酒中微量甲醛方法的研究[J].食品与发酵工业.2006(09)
[34]黄培青.基于IP网络的校园视频监控系统设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[35]张慕良,郑济世.PC—可编程序控制器的原理及应用实例[J].电气工程应用.1988(01)
[36]李宗群.脑电生物反馈针灸治疗仪的研究与开发[D].广东工业大学,控制理论与控制工程,2011,硕士.
[37]郭金虹.语义启动与决策角色对青少年冒险偏好的影响[D].华东师范大学,发展与教育心理学,2013,硕士.
[38]周自群.JT年产5000吨电解铜粉项目可行性研究[D].南昌大学,工商管理(专业学位),2012,硕士.
[39]吕静.碳纳米管作为钴基费—托合成催化剂载体和助剂的研究[D].天津大学,2009.
[40]徐毅.论贪污罪犯罪主体[D].安徽大学,法律,2003,硕士.
[41]姚敏,王方石.基于MVC模式和SSH框架的高校科研管理系统设计与实现[J].电脑知识与技术,2014,11:2485-2487.
[42]周学治.电气间歇短路故障火花的监测及定位研究[D].中国矿业大学,检测技术与自动化装置,2014,硕士.
[43]邹士涛.胃癌细胞SGC-7901中β3Gn-T8与转录因子c-Jun相关性初探[D].苏州大学,生物化学与分子生物学,2012,硕士.
[44]张月君.防空识别区法律问题研究[D].重庆大学,法律(专业学位),2014,硕士.
[45]董益嘉.接受美学视阀下的W.H.奥登诗歌焦虑情绪解读[D].扬州大学,英语语言文学,2012,硕士.
[46]刘从敏.需要层次理论视角下我国寿险代理人激励方式研究[D].东北农业大学,金融学,2013,硕士.
[47]孙家凤.高速公路平纵衔接区段的安全预测体系[D].北京工业大学,2002.
[48]王慧茹.小麦回交导入系抗旱相关重要性状数量位点遗传剖析[D].甘肃农业大学,作物生态生理,2013,硕士.
[49]马越.创业环境对大学生创业倾向的影响因素研究[D].重庆工商大学,企业管理,2014,硕士.
[50]钟小英.我国城镇化与城乡收入差距的相关性研究[D].华侨大学,数量经济学,2014,硕士.

相关推荐
更多